This paper presents a 3D generative model that uses diffusion models to automatically generate 3D digital avatars represented as neural radiance fields. A significant challenge in generating such avatars is that the memory and processing costs in 3D are prohibitive for producing the rich details required for high-quality avatars. To tackle this problem we propose the roll-out diffusion network (Rodin), which represents a neural radiance field as multiple 2D feature maps and rolls out these maps into a single 2D feature plane within which we perform 3D-aware diffusion. The Rodin model brings the much-needed computational efficiency while preserving the integrity of diffusion in 3D by using 3D-aware convolution that attends to projected features in the 2D feature plane according to their original relationship in 3D. We also use latent conditioning to orchestrate the feature generation for global coherence, leading to high-fidelity avatars and enabling their semantic editing based on text prompts. Finally, we use hierarchical synthesis to further enhance details. The 3D avatars generated by our model compare favorably with those produced by existing generative techniques. We can generate highly detailed avatars with realistic hairstyles and facial hair like beards. We also demonstrate 3D avatar generation from image or text as well as text-guided editability.
translated by 谷歌翻译
Singular value decomposition (SVD) is one of the most popular compression methods that approximate a target matrix with smaller matrices. However, standard SVD treats the parameters within the matrix with equal importance, which is a simple but unrealistic assumption. The parameters of a trained neural network model may affect task performance unevenly, which suggests non-equal importance among the parameters. Compared to SVD, the decomposition method aware of parameter importance is the more practical choice in real cases. Unlike standard SVD, weighted value decomposition is a non-convex optimization problem that lacks a closed-form solution. We systematically investigated multiple optimization strategies to tackle the problem and examined our method by compressing Transformer-based language models. Further, we designed a metric to predict when the SVD may introduce a significant performance drop, for which our method can be a rescue strategy. The extensive evaluations demonstrate that our method can perform better than current SOTA methods in compressing Transformer-based language models.
translated by 谷歌翻译
AD相关建模在包括Microsoft Bing在内的在线广告系统中起着至关重要的作用。为了利用强大的变压器在这种低延迟设置中,许多现有方法脱机执行广告端计算。虽然有效,但这些方法无法提供冷启动广告,从而导致对此类广告的相关性预测不佳。这项工作旨在通过结构化修剪设计一种新的低延迟BERT,以在CPU平台上授权实时在线推断对Cold Start Ads相关性。我们的挑战是,以前的方法通常将变压器的所有层都缩减为高,均匀的稀疏性,从而产生无法以可接受的精度实现令人满意的推理速度的模型。在本文中,我们提出了SwiftPruner - 一个有效的框架,利用基于进化的搜索自动在所需的延迟约束下自动找到表现最佳的稀疏BERT模型。与进行随机突变的现有进化算法不同,我们提出了一个具有潜伏意见的多目标奖励的增强突变器,以进行更好的突变,以有效地搜索层稀疏模型的大空间。广泛的实验表明,与均匀的稀疏基线和最先进的搜索方法相比,我们的方法始终达到更高的ROC AUC和更低的潜伏度。值得注意的是,根据我们在1900年的延迟需求,SwiftPruner的AUC比Bert-Mini在大型现实世界数据集中的最先进的稀疏基线高0.86%。在线A/B测试表明,我们的模型还达到了有缺陷的冷启动广告的比例,并获得了令人满意的实时服务延迟。
translated by 谷歌翻译
自动检测视网膜结构,例如视网膜血管(RV),凹起的血管区(FAZ)和视网膜血管连接(RVJ),对于了解眼睛的疾病和临床决策非常重要。在本文中,我们提出了一种新型的基于投票的自适应特征融合多任务网络(VAFF-NET),用于在光学相干性层析成像(OCTA)中对RV,FAZ和RVJ进行联合分割,检测和分类。提出了一个特定于任务的投票门模块,以适应并融合两个级别的特定任务的不同功能:来自单个编码器的不同空间位置的特征,以及来自多个编码器的功能。特别是,由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类,因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影,而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究,已经发布了这些数据集的部分数据集,并已发布了公共访问:https://github.com/imed-lab/vaff-net。
translated by 谷歌翻译
我们研究了使用动力学系统的流量图相对于输入指数的某些置换的函数的近似值。这种不变的功能包括涉及图像任务的经过研究的翻译不变性功能,但还包含许多在科学和工程中找到新兴应用程序的置换不变函数。我们证明了通过受控的模棱两可的动态系统的通用近似的足够条件,可以将其视为具有对称约束的深度残留网络的一般抽象。这些结果不仅意味着用于对称函数近似的各种常用神经网络体系结构的通用近似,而且还指导设计具有近似值保证的架构的设计,以保证涉及新对称要求的应用。
translated by 谷歌翻译
将大型矩阵分配到小矩阵中是模型压缩的流行策略。奇异值分解(SVD)在这种压缩策略中起着至关重要的作用,近似具有较少参数的学习矩阵。但是,SVD最大程度地减少了平方误差以重建原始矩阵而不衡量参数的重要性,从而为那些影响任务准确性的人提供了更大的重建误差。换句话说,SVD的优化目标与受过训练的模型的任务准确性不符。我们通过引入Fisher信息来权衡影响模型预测的参数的重要性来分析此先前未开发的问题,进行观察并解决该问题。这个想法导致了我们的方法:Fisher加权SVD(FWSVD)。尽管我们方法的分解矩阵并没有导致较小的重建错误,但我们发现我们所得的任务准确性更接近原始模型的性能。我们使用基于变压器的语言模型进行分析,显示我们的加权SVD很大程度上减轻了不匹配的优化目标,并可以以更高的压缩率维持模型性能。我们的方法可以直接压缩特定于任务的模型,同时比需要昂贵的模型预训练的其他紧凑型模型策略更好。此外,对压缩模型的评估表明,我们的方法可以进一步降低9%至30%的参数,对任务准确性产生不大的影响。
translated by 谷歌翻译
使用神经网络代表3D对象已变得流行。但是,许多以前的作品采用具有固定体系结构和大小的神经网络来表示不同的3D对象,这导致简单对象的网络参数过多,并且对复杂对象的重建精度有限。对于每个3D模型,希望拥有尽可能少的参数以实现高保真重建的端到端神经网络。在本文中,我们提出了一种利用神经体系结构搜索(NAS)和二进制分类的高效体素重建方法。以层数,每一层的节点数量以及每一层的激活函数为搜索空间,可以根据强化学习技术获得特定的网络体系结构。此外,为了摆脱网络推理后使用的传统表面重建算法(例如,行进立方体),我们通过对二进制体素进行分类来完成端到端网络。与其他签名的距离字段(SDF)预测或二进制分类网络相比,我们的方法使用更少的网络参数获得了更高的重建精度。
translated by 谷歌翻译
域分类是自然语言理解(NLU)中的基本任务,通常需要快速住宿到新的新兴域。即使新模型可访问,此约束使其无法培育所有先前的域。大多数现有的持续学习方法患有低精度和性能波动,特别是当旧数据和新数据的分布显着不同时。事实上,关键的真实问题不是没有旧数据的,而是效率效率恢复模型与整个旧数据集。是否有可能利用一些旧数据来产生高精度并保持稳定的性能,同时在不引入额外的普通公共表?在本文中,我们提出了一个可在各种环境下稳定地产生高性能的文本数据的一个封路数据不断学习模型。具体地,我们利用Fisher信息选择可以“记录”原始模型的关键信息的示例。此外,提出了一种称为动态重量整合的新颖方案,以在恢复过程中启用自由的自由学习。广泛的实验表明基线患有波动的性能,因此在实践中无用。相反,我们建议的CCFI显着且始终如一地优于平均精度高达20%的最佳最新方法,CCFI的每个组件有效地贡献了整体性能。
translated by 谷歌翻译
诸如BERT的预先接受的语言模型在各种自然语言处理任务中显示出显着的效果。但是,这些模型通常包含数百万个参数,这可以防止它们在资源受限设备上实际部署。已知知识蒸馏,重量修剪和量化是模型压缩中的主要方向。然而,通过知识蒸馏获得的紧凑型模型即使对于相对小的压缩比也可能遭受显着的精度下降。另一方面,只有少数量化尝试专门用于自然语言处理任务。它们患有小的压缩比或较大的错误率,因为需要对超参数的手动设置,并且不支持微粒子组 - 方向量化。在本文中,我们提出了一种自动混合精密量化框架,设计用于伯特,其可以同时在亚组 - 明智的水平中进行量化和修剪。具体而言,我们所提出的方法利用可微分的神经结构搜索,搜索自动地分配每个子组中的参数的比例和精度,同时捕获冗余参数组。对BERT下游任务的广泛评估揭示了我们所提出的方法通过提供相同的模型尺寸来实现相同的性能。我们还通过将我们的解决方案与Ottherbert等正交方法相结合来展示获得极其轻量级模型的可行性。
translated by 谷歌翻译
Generalizable, transferrable, and robust representation learning on graph-structured data remains a challenge for current graph neural networks (GNNs). Unlike what has been developed for convolutional neural networks (CNNs) for image data, self-supervised learning and pre-training are less explored for GNNs. In this paper, we propose a graph contrastive learning (GraphCL) framework for learning unsupervised representations of graph data. We first design four types of graph augmentations to incorporate various priors. We then systematically study the impact of various combinations of graph augmentations on multiple datasets, in four different settings: semi-supervised, unsupervised, and transfer learning as well as adversarial attacks. The results show that, even without tuning augmentation extents nor using sophisticated GNN architectures, our GraphCL framework can produce graph representations of similar or better generalizability, transferrability, and robustness compared to state-of-the-art methods. We also investigate the impact of parameterized graph augmentation extents and patterns, and observe further performance gains in preliminary experiments. Our codes are available at: https://github.com/Shen-Lab/GraphCL.
translated by 谷歌翻译